خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

نویسنده

چکیده مقاله:

Data mining, also known as knowledge discovery in database, is the process to discover unknown knowledge from a large amount of data. Text mining is to apply data mining techniques to extract knowledge from unstructured text. Text clustering is one of important techniques of text mining, which is the unsupervised classification of similar documents into different groups. The most important steps in document clustering are how documents are represented and the measurement of similarities between them. By giving a new ontological representation and a similarity measure, this research focuses on improving the performance of text clustering. The text clustering algorithm has been investigated in three aspects: ontological representation of documents, documents similarity measure, fuzzy inference system to measuring the final similarities. Ultimately, the clustering is carried out by bottom-up hierarchical clustering. In the first step, documents are represented as ontological graph according to domain knowledge. In contrast to keywords method, this method is based on domain concepts and represents a document as subgraph of domain ontology. The extracted concepts of document are the graph nodes. Weight is measured for each node in terms of concept frequency. The relation between documents’ concepts specifies the graph edges and the scope of the concepts’ relation determines the edge’s weight. In the second step, a new similarity measure has been presented proportional to the ontological representation. For each document, main and detailed concepts and main edges are determined. The similarity of each couple of documents is computed in three amounts and according to these three factors. In the third step, the fuzzy inference system with three inputs and one output has been designed. Inputs are the similarities of main concepts, detailed concepts and the main edges of two documents and the output is final similarities of the two documents. In final step, a bottom-up hierarchical clustering algorithm is used to clustering the documents according to final similarity matrix. In order to evaluate, the offered method has been compared with the results of Naïve Bayes method and ontology based algorithms. The results indicate that the proposed method improves the precision, recall, F-measure and accuracy and produces more meaningful results.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

متن کامل

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از مقدار زیادی داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد.سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می...

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

فیلتر کردن پویای هرزنامه مبتنی بر آنتولوژی

سرویس پست الکترونیک یکی از محبوب ترین سرویس های اینترنت است که بخش مهمی از این ایمیل ها، مورد درخواست و تقاضای کاربر نیست. عدم درخواست این ایمیل ها و یا عدم شناسایی فرستنده هرزنامه تعریف می شود که البته همین تعریف نیز مورد توافق همه افراد قرار نگرفته است. از مهمترین چالش های شناخت هرزنامه، وابستگی آن به سلایق کاربر است. به-عبارت دیگر یک ایمیل ممکن است برای فردی هرزنامه و برای فرد دیگری ایمیل مو...

15 صفحه اول

به کارگیری رویکرد فازی در تطابق آنتولوژی و ارزیابی کاربردی آن

هستی شناسی مدلی برای نمایش یک دامنه است و برای استدلال درمورد اشیا و روابط بین آنها در همان دامنه به کار می رود. هستی شناسی معمولا شامل مفاهیم، روابط بین مفاهیم، نمونه ها و ویژگی های مفاهیم است. در سالیان گذشته تعداد هستی شناسی های موجود به شدت افزایش یافته است. وجود این سطح از تنوع، مسئله ادغام و استفاده مجدد از اطلاعات را مطرح می نماید. اگرچه که با بررسی دقیق تر هستی شناسی ها می بینیم که بسیا...

مدل انتخاب نرم‌افزار مدیریت خدمات فناوری اطلاعات مبتنی بر رویکرد تاپسیس فازی

تعداد فزاینده‌ای از سازمان‌ها در حال اجرای چارچوب‌های مختلف مدیریت خدمات فناوری اطلاعات (ITSM)، به‌منظور بهبود خدمات و فرایندهای فناوری اطلاعات خود هستند. برای پیاده‌سازی موفق پروژه‌های ITSM در یک سازمان، انتخاب سیستم مناسب ITSM ضروری است. ارزیابی و انتخاب بسته‌های نرم‌افزاری ITSM، فرایندی پیچیده و وقت‌گیر است. انتخاب سیستم نامناسب ممکن است پُرهزینه باشد و تأثیرات بسیار بدی بر فرایندها و خدمات ف...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

عنوان ژورنال

فناوری اطلاعات و ارتباطات ایران

دوره 5 شماره 17

صفحات 73- 96

تاریخ انتشار 2015-03

دنبال کردن

لغو دنبال کردن

{@ msg @}

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com